Lasso 回归 : 从 解释 到 预测 
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摘 要 传统 的 最 小 二 乘 回归 法 关注 于 对 当前 数据 集 的 准确 估计 ， 容 易 导致 模型 的 过 拟 合 ， 影 响 模型 结论 


的 可 重复 性 。 随 着 方法 学 领域 的 发 展 ， 涌 现 出 的 新 兴 统 计 工 具 可 以 弥补 传统 方法 的 局 限 ， 从 过 度 关 注 回 归 


系数 值 的 解释 转向 提升 研究 结果 的 预测 能 力也 愈加 成 为 心理 学 领域 重要 的 发 展 趋势 。Lasso 方法 通过 在 模 


型 估计 中 引入 惩罚 项 的 方式 ， 可 以 获得 更 高 的 预测 准确 度 和 模型 概 化 能 力 ， 同 时 也 可 以 有 效 地 处 理 过 拟 合 


和 多 重 共 线性 问题 ， 有 助 于 心理 学 理论 的 构建 和 完善 。 
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心理 学 研究 的 目的 在 于 “描述 、 解 释 、 预 测 和 影响 行为 ”( 豆 运 石 ， 李 瑛 , 2011; Lippke & 
- Ziegelmann, 2010)， 探 究 变量 癌 的 关系 是 实现 该 目的 必 不 可 少 的 部 分 。 回 归 分 析 作 为 一 类 评 
= 价 变量 间 关 系 的 方法 ， 其 思想 已 得 到 广泛 推广 ， 并 且 在 各 种 主流 统计 分 析 软 件 中 都 可 实现 。 
回归 分 析 是 社会 科学 领域 中 最 基础 、 最 经 典 的 定量 分 析 方法 ( 谢 字 , 2010)， 许 多 常见 的 统计 


检验 (如 ， 方 差分 析 ) 也 可 以 视 作 是 线性 回归 模型 的 特例 。 回 归 模 型 的 一 般 公 式 可 以 表示 为 ; 
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= Yi = Bo + Baxi + BoXig + + Bixiy to + BpXip + £i (1) 

; 该 模型 包含 p 个 预测 变量 , 其 中 po 为 截 距 项 , Bj; 表示 第 j 个 预测 变量 的 回归 系数 9 = 1,2...p)， 
yi 表示 第 i 个 被 试 在 结果 变量 上 的 观测 值 ,xijj 表 示 第 i 个 被 试 在 第 j 个 预测 变量 上 的 观测 值 ， 
8i 为 残 差 项 。 

可 归 分 析 常 被 用 于 探索 变量 间 的 关系 , 同时 也 可 以 帮助 研究 者 对 结果 变量 进行 预测 。 在 


归 模 型 分 析 数 据 的 心理 学 研究 中 ， 最 小 二 乘法 (Ordinary Least Square, OLS) 是 最 常用 
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的 模型 系数 估计 方法 (Helwig, 2017). OLS 方法 通过 最 小 化 结果 变量 的 预测 值 与 观测 值 之 间 
的 误差 来 估计 回归 模型 中 的 参数 , 可 以 针对 当前 样本 提供 最 准确 的 线性 无 偏 估计 (Chartterjee， 
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Hadi, & Price, 2000; Chartterjee & Hadi, 2006; Fomby, Hill, & Johnson, 1984; Maddala, 2002). 

但 OLS 方法 关注 于 对 当前 数据 集 的 无 偏 估计 , 容易 导致 模型 发 生 过 拟 合 现象 (Yarkoni & 
Westfall, 2017)， 即 基于 当前 样本 得 到 的 回归 模型 结果 在 拟 合同 一 总 体 的 其 他 样本 数据 或 用 
于 预测 未 来 观测 数据 时 表现 不 佳 , 这 一 问题 在 预测 变量 较 多 , 变量 之 间 存 在 较 高 共 线 性 或 数 
据 信 噪 比较 低 的 情况 下 更 为 严重 (Babyak, 2004; Helwig, 2017; McNeish, 2015)。 过 拟 合 的 模型 
中 往往 会 纳入 不 必要 的 元 余 变 量 ， 并 高 估 了 部 分 预测 因素 的 作用 ， 削 弱 了 模型 的 简约 性 
(Babyak, 2004; Cohen, J., Cohen, P., West, & Aiken, 2003; Derksen & Keselman, 1992)。 这 些 问 
题 会 对 模型 结论 的 推广 和 预测 造成 不 可 忽略 的 影响 。 

随 着 机 器 学 习 领 域 的 蓬勃 发 展 , 涌现 出 了 越 来 越 多 的 统计 工具 用 以 弥补 传统 方法 的 局 限 。 


其 中 以 Lasso(Least absolute shrinkage and selection operator; Tibshirani, 1996) 方 法 为 代表 的 正 


则 化 (regularization) 方 法 可 以 有 效 优化 OLS 估计 、 处 理 过 拟 合 问 题 (Candes & Tao, 2007; 
Tibshirani, 1996; Tibshirani, Saunders, Rosset, Zhu, & Knight, 2005; Zou, 2006; Zou & Hastie, 
2005)。 正 则 化 方法 通过 在 模型 估计 中 增加 惩罚 项 的 方式 可 以 将 过 小 的 回归 系数 压缩 到 0， 以 
一 定 的 估计 偏差 为 代价 从 而 获得 更 高 的 模型 预测 准确 度 和 模型 概 化 能 力 。 该 方法 能 够 将 见 余 
预测 变量 的 估计 系数 压缩 为 0， 在 压缩 系数 的 同时 起 到 变量 筛选 的 作用 ， 可 以 有 效 避 免 由 于 
过 拟 合 导致 的 模型 概 化 能 力 不 足 的 问题 , 获得 更 简约 且 具 有 较 高 预测 效率 的 模型 , 有 助 于 心 


理学 理论 的 构建 和 完善 。 


Lasso 正则 化 方法 自 提 出 后 吸引 了 诸多 研究 者 的 关注 (Zou, Hastie, & Tibshirani, 2007): 由 
于 该 方法 在 变量 科 选 和 模型 稳定 性 上 的 出 色 表 现 ， 医 学 、 经 济 学 、 神 经 科学 等 领域 已 有 许多 


究 者 采用 Lasso 方 法 建立 模型 进行 预测 (e.g., Fontanarosa & Dai, 2011; Lee, Chao, Ting, Chang, 
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Huang, Wu, et al., 2014; Nguyen, Duong, Venkatesh, & Phung, 2015)。 但 是 在 神经 科学 以 外 的 心 


理学 领域 中 ， 对 Lasso 方法 的 运用 却 非 常 少 (Johnson & Sinharay, 2011; McNeish, 2015; Yarkoni 
全 Westfall,2017)。 其 阻碍 主要 来 自 于 对 正则 化 等 机 器 学 习 方法 可 解释 性 的 质疑 , 这 类 方法 党 
常 不 依赖 于 传统 的 假设 检验 , 更 多 地 采用 数据 驱动 的 方式 进行 探索 和 预测 ,因而 被 认为 是 一 
个 “黑匣子 ”。 吴 喜之 (2019) 指 出 , 事实 上 回归 模型 中 单个 回归 系数 同样 不 具备 可 解释 性 。 例 
如 ， 在 回归 模型 的 结果 报告 中 ， 通 常会 出 现 这 样 的 描述 :“ 当 保持 其 它 预 测 变量 不 变 时 ， 该 
预测 变量 每 变化 一 个 单位 ， 因 变量 变化 B 个 单位 ” 但 是 这 个 前 提 条 件 几乎 不 可 能 成 立 。 而 
除了 研究 结论 的 解释 之 外 ， 模 型 的 概 化 能 力 及 预测 能 力 同样 值得 关注 。 

在 心理 学 研究 中 , 以往 由 于 受到 计算 机 计算 能 力 以 及 传统 统计 方法 的 限制 , 研究 者 在 验 
证 理论 、 检 验 变 量 间 关 系 时 ， 主 要 采用 假设 检验 的 方式 。 随 着 这 类 方法 的 普遍 应 用 ， 其 局 限 
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日 益 突 出 ， 过 拟 合 问题 和 可 重复 性 危机 也 日 益 受到 重视 ( 胡 传 鹏 等 , 2016; Nuzzo, 2014)。 随 
着 机 器 学 习 领 域 的 鞍 勃 发 展 , 新 兴 的 数据 科学 工具 已 经 在 医疗 健康 等 众多 领域 发 挥 出 了 巨大 
价值 ， 在 心理 学 领域 ， 提 升 研究 结论 的 预测 能 力 将 会 成 为 未 来 重要 的 发 展 趋势 (Yarkoni & 


Westfall, 2017)。 

本 文 希 望 以 Lasso 方法 为 例 ， 从 理论 出 发 ， 结 合 实例 分 析 与 具体 应 用 现状 ， 全 面 地 为 心 
理学 研究 者 介绍 Lasso 回归 的 原理 、 实 现 步 又 和 优势 ， 呼吁 研究 者 在 样本 量 较 少 或 变量 数目 
较 多 时 采用 更 稳健 的 Lasso 回归 法 来 提升 研究 结论 的 可 推广 性 。 此 外 ， 本 文 还 将 介绍 Lasso 
方法 的 多 种 扩展 形式 ， 及 其 在 网 络 分 析 、 潜 变量 建 模 中 的 应 用 。 和 希望 能 够 为 研究 者 的 实际 应 
提供 参考 , 促进 更 多 心理 学 研究 者 关注 此 类 新 兴 的 数据 科学 工具 ,以 数据 科学 助力 心理 学 
的 发 展 。 


2. 传统 方法 及 其 局 限 


在 标准 的 OLS 回归 中 ， 回 归 模 型 的 参数 估计 可 以 通过 最 小 化 损失 函数 得 到 ， 即 最 小 化 
观察 值 与 预测 值 之 间 的 垂直 平方 距离 ，OLS 估计 的 损失 函数 公式 具体 如 下 (McNeish, 2015): 
L°'S(B) = |IY — XB (2) 
其 中 105 是 损失 函数 ， 假 定 n 为 观察 值 个 数 ，p 为 预测 变量 个 数 (包括 截 距 项 )，X(nxp) 和 
Ynx7) 分 别 是 预测 变量 矩阵 和 结果 变量 向 量 ，B(px7) 是 回归 系数 向 量 。 
通过 最 小 化 LOS, OLS 回归 能 够 得 到 最 好 的 线性 无 偏 估计 量 B45 (Best Linear Unbiased 
Estimator, BLUE); mH. OLS 估计 的 计算 负担 小 ， 可 以 满足 心理 学 领域 的 很 多 建 模 情境 。 但 
是 ， 当 研究 中 包含 的 预测 变量 数目 较 多 时 ，OLS 估计 法 存在 以 下 几 点 局 限 : 
一 是 过 度 拟 合 (Overfib， 即 建立 的 回归 模型 过 于 复杂 ， 其 中 一 些 参数 的 显著 性 是 由 于 抽 
样 变异 性 (Sampling Variability) 导致 的 ， 使 得 模型 只 适用 于 当前 样本 ， 缺 乏 概 化 能 


(Generalizability)。 
模型 的 预测 误差 可 以 被 分 解 为 偏差 和 方差 两 部 分 , 其 中 偏差 指 预测 值 和 真实 值 之 间 
的 差异 ， 方 差 指 预测 值 的 离散 情况 。OLS 估计 由 在 通过 控制 估计 偏差 来 降低 模型 的 预测 误 
差 ， 但 是 参数 的 样本 间 方 差 会 因此 而 增 大 ， 当 前 的 参数 估计 结果 可 能 仅 适 用 于 当前 数据 集 ， 
且 估 计 结 果 易 受到 不 同样 本 的 微小 波动 的 影响 (如 图 1a 所 示 , 尽管 模型 对 数据 点 的 拟 合 较为 
准确 ， 偏 差 较 小 ， 但 这 样 的 模型 可 能 并 不 适用 于 其 它 样本 )， 容 易 出 现 过 拟 合 现象 。 过 拟 合 
现象 会 导致 模型 在 高 估 回 归 系 数 的 同时 低估 其 标准 误 , 容易 导致 模型 中 无 关联 的 元 余 变 量 被 
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发 现存 在 显著 的 预测 作用 , 模型 得 到 的 结果 可 能 仅 适 用 于 当前 样本 而 无 法 推广 到 总 体 。 当 观 
察 值 个 数 与 预测 变量 个 数 p 的 比率 越 低 时 ( 即 样 本 量 不 足 ) 时 ， 参 数 被 错误 解读 的 风险 也 越 
大 (Babyak, 2004; Derksen & Keselman, 1992)。 


相反 地 ， 如果 使 用 当前 数据 集 获得 的 参数 估计 存在 着 可 以 接受 的 偏差 , 那么 参数 的 样本 


间 方 差 会 因 有 偏 估 计 而 减 小 ， 这 样 的 估计 结果 反而 具有 更 强 的 概 化 能 力 (如 图 lb 所 示 )。 因 
此 , 在 实际 数据 分 析 中 我 们 需要 很 好 ] 
而 传统 的 OLS 估计 关注 对 当前 数据 集 的 精确 估计 ， 在 预测 变量 较 多 时 不 可 避免 地 容易 出 现 


过 拟 合 的 估计 结果 ， 进 而 削弱 模型 的 概 化 能 力 。 


图 1 


(b) 
偏差 -方差 权衡 


地 处 理 这 种 偏差 -方差 权衡 (Bias-Variance Tradeoff) 问 题 。 
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二 是 多 重 共 线 性 (Multicollinearity)， 即 在 回归 模型 中 多 个 预测 变量 间 存 在 相关 关系 的 现 


象 ,其 中 当 预 测 变 量 间 的 相关 系数 为 正 负 1 时 ， 即 存在 完全 多 习 


E 共 线性 。 当 模型 存在 较 强 的 


多 重 共 线 性 时 ，OLS 估计 得 到 的 回归 系数 极 易 受到 样本 数据 的 微小 波动 的 影响 ， 估 计 的 稳 


定性 较 差 。 回 归 系 数 的 估计 方差 也 会 随 着 自 变 量 
当 更 换 样 本 中 的 部 分 数据 时 , 回归 系数 


导致 得 到 的 回归 模型 缺乏 概 化 能 


实情 况 相 反 (Rao, 1976). 


因为 多 重 


间 共 线性 的 增强 而 增 大 ( 张 凤 莲 ，2010)。 即 
{线性 的 存在 会 产生 较 大 的 变化 。 这 不 仪 会 


, 还 会 使 某 些 重要 变量 的 回归 系数 变 得 微不足道 甚至 与 现 


此 外 ， 当 模型 存在 较 多 的 预测 变量 时 ， 我 们 往往 会 采用 逐步 回归 (Stepwise Regression) 等 
方法 增加 或 删 减 变量 ， 以 获得 有 效 的 预测 变量 集 .。 但 是 该 方法 违背 了 回归 分 析 推 论 的 前 提 假 


设 ， 即 所 有 预测 变量 是 作为 整体 固定 存在 的 (Lockhart, Taylor, Tibshirani, R. J., & Tibshirani, R., 


2014)， 过 度 拟 合 带 来 的 问题 在 使 月 


逐步 回 


归 法 进行 模型 选择 时 也 会 更 加 突出 。 此 时 ) 


IF St 


THERA ¢ BSB F RSMAS EE eB, 也 无 法 拥有 合适 的 自由 度 进行 


分 析 , 基本 的 统计 检验 及 其 相关 的 p 值 将 不 适用 于 不 断 增 减 变 量 的 模型 选择 。 这 种 模型 选择 
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能 会 使 回归 系数 假设 检验 的 一 类 错误 率 增 大 (Wilkinson, 1979). 


3. Lasso 方法 


3.1 Lasso 方法 介绍 


相 较 于 上 文 提 及 的 OLS 估计 ， 正 则 化 方法 在 OLS 损失 函数 的 基础 上 引入 了 惩罚 函数 ， 


以 惩罚 过 于 复杂 的 模型 。 其 具体 公式 可 以 表示 为 : 


LR°9(B) = L°™ (B) + AP(B) 


(4) 


其 中 , LRe9(B) ALT St AB, LOS (B) Rabe OLS 损失 函数 ，P(8) 表 示 惩 罚 函 数 ， 


和 (> 0) 表 示 调 整 参数 (Tuning Parameter)， 用 于 控制 回归 系数 压缩 的 程度 ， 数 值 越 大 则 逢 


罚 力 


度 越 强 。 当 和 = 0 时 ,损失 函数 不 对 模型 进行 惩罚 ，LR*9(B6) 即 为 OLS 损失 函数 。 而 不 同 的 第 


罚 函 数 P(8) 则 对 应 于 不 同 的 正则 化 方法 。 


Lasso 方法 作为 正则 化 方法 的 一 种 ， 它 以 回归 系数 的 绝对 值 之 和 作为 惩罚 函数 来 压缩 回 


归 系数 , 即 Prasso(pB) = 入 9_11Bjl， 在 参数 估计 中 ,由 于 绝对 值 符号 难以 进行 拆 解 运算 ， 可 


以 将 |Bj| 转 换 为 +1* Bj， 其 


可 以 表示 为 (McNeish, 2015): 


Diasso(8) = (|Y — XI)? + AWTB 


+1 或 -1 的 具体 符号 与 Bj 的 符号 一 致 。 即 Lasso 损失 函数 的 公式 


(5) 


ERAS, 1455949 Lasso 回归 模型 的 损失 函数 ，X(nxp)、Y(nx7) 和 plpx7) 分 别 是 预测 变 


值 一 致 ) 的 向 量 。 


量 和 矩阵 、 结 果 变 量 向 量 和 回归 系数 向 量 ， 而 WCpx7) 则 是 值 为 +1 (符号 与 向量 中 对 应 的 数 


相 比 其 他 正则 化 方法 ， 如 ，Ridge 正则 化 采用 回归 系数 的 平方 和 为 惩罚 函数 ， 对 较 小 的 


回归 系数 估计 值 压缩 力度 更 小 ， 难 以 将 元 余 预 测 变量 的 系数 压缩 为 0， 且 对 较 重 要 的 加 


数 更 容易 进行 过 度 压缩 (Hesterberg, Choi, Meier, & Fraley, 2008). Lasso 方法 可 以 直接 将 元 余 


归 系 


预测 变量 的 
集 (Tibshirani, 1996)， 同 时 也 可 以 减少 对 重要 回归 系数 的 过 度 压缩 。 


a 


Yarkoni 和 Westfall(2017) 指 出 ， 相 比 于 OLS 估计 法 ，Lasso 方法 获得 的 模型 通常 能 够 更 


归 系 数 压缩 到 0 进而 发 挥 变量 选择 的 作用 ， 获 得 精简 且 更 有 效率 的 预测 变量 


好 地 推广 到 新 的 数据 集中 。 在 OLS 回归 模型 中 ， 模 型 的 RX( 即 结果 变量 的 被 解释 率 ) 通 常会 


随 着 模型 的 复杂 度 增加 。 而 Lasso 方法 不 仅仅 关注 于 解释 当前 的 数据 集 ( 即 得 到 更 高 的 


R2)， 


也 希望 能 够 获得 更 简洁 的 模型 以 更 好 地 推广 到 总 体 中 。Lasso 方法 从 解释 向 预测 的 转变 使 得 
究 不 仅仅 指向 于 过 去 ( 即 对 当前 数据 集 的 解释 )， 同 时 也 关注 于 未 来 (对 新 数据 集 的 预测 能 
力 )。 这 一 特性 不 仅 有 助 于 心理 学 理论 的 构建 和 完善 ， 同 时 也 可 以 一 定 程度 上 减少 可 重复 性 
危机 的 影响 。 

此 外 ，Lasso 方法 也 避免 了 在 预测 变量 过 多 时 采用 OLS 估计 带 来 的 过 拟 合 和 多 重 共 线 
性 的 问题 。 而 理论 不 完善 且 预 测 变量 间 存 在 共 线 性 是 心理 学 领域 中 较为 常见 的 现象 。 当 研究 
者 的 理论 假设 并 不 明确 时 ， 采 用 包含 多 重 检验 修正 的 验证 性 方法 (如 逐步 回归 ) 从 理论 上 来 说 
是 错误 的 (Serang, Jacobucci, Brimhall, & Grimm, 2017)， 后 纳入 的 变量 在 这 种 情况 下 常常 会 因 
为 与 之 前 的 变量 存在 相关 而 被 削弱 影响 (Frank & Heiser 2011)。Lasso 方法 则 将 预测 变量 集 视 
为 整体 ， 可 以 较 好 地 应 对 这 一 问题 。 

由 于 惩罚 项 的 引入 ，Lasso 方法 在 估计 时 所 需要 的 计算 量 相对 更 高 。Efron，Hastie， 
Johnstone 和 Tibshirani(2004) 针 对 这 一 问题 提出 的 最 小 角 回 归 (Least Angle Regression, 
LARS) 估 计 方 法 目前 应 用 较为 广泛 。 对 于 应 用 研究 者 来 说 ， 随 着 正则 化 方法 的 成 熟 ， 也 已 
经 发 展 出 了 可 以 直接 进行 Lasso 回归 建 模 的 R 软件 包 ， 对 此 本 文 将 在 下 文 详 述 。 
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3.2 Lasso 回归 实现 步骤 


Lasso 回归 建 模 通常 包括 参数 4 的 选择 和 p 值 的 计算 两 部 分 ， 下 文 将 详细 介绍 其 方法 
原理 ， 附 录 部 分 采用 实例 分 析 展 示 了 如 何在 R 软件 中 实现 Lasso 回归 建 模 ， 并 详细 对 比 了 


Lasso 回归 和 OLS 回归 方法 。 


3.2.1 参数 4 的 选择 


参数 4 的 选择 决定 了 回归 系数 被 压缩 的 程度 , 不 同 的 4 可 能 产生 不 同 的 结果 。 目 前 有 
以 下 两 种 常用 的 挑选 参数 4 最 优 值 的 方法 (MecNeish, 2015): 
第 一 种 方法 是 机 器 学 习 领 域 的 交叉 验证 (Cross-Validation) 方 法 。 有 具体 过 程 如 下 : 首先 ， 
将 数据 分 成 K 个 大 小 相同 的 样本 , 通常 K 可 为 5、10 或 N( 样 本 量 ); 然后 选择 A 的 茶 个 值 ， 
将 前 K-1 份 的 数据 采用 Lasso 方法 估计 模型 ， 再 将 模型 得 到 的 回归 系数 用 于 第 K 份 数据 的 
验证 ， 检 验 模型 设立 是 否 正确 ， 并 且 将 上 述 过 程 重 复 K 次 ; 最后， 我 们 将 得 到 茶 一 4 值 下 
模型 的 拟 合 值 (如 , 线性 模型 的 均 方 误差 值 ) 和 标准 误 , 交叉 验 证 方法 通常 会 重复 上 述 过 程 100 
次 ， 即 选择 100 个 不 同 的 4 值 ， 再 以 均 标 准 误 大 小 决定 参数 4 的 取 值 。 一般 情况 下 ,我 们 
会 选择 均 标 准 误 最 小 时 的 4 值 ， 但 是 有 时 选择 4 的 最 小 值 意味 着 回归 系数 压缩 幅度 较 小 ， 


la 


l= 


可 能 不 能 完全 解决 过 拟 合 的 问题 。 因此 , 有 研究 建议 选择 大 于 最 小 均 标 准 误 一 个 标准 误 时 对 


应 的 参数 A 值 (Waldmann, Mészáros, Gredler, Fuerst, & Solkner, 2013). 


另 一 种 方法 是 信息 标准 (Information Criteria)， 其 参数 4 的 选择 过 程 与 交互 验证 基本 相 
同 ， 即 针对 多 个 不 同 的 4 值 ， 在 每 个 4 值 下 ， 均 采用 Lasso 方法 拟 合 模型 (使 用 全 部 数据 ) 
并 计算 得 到 信息 标准 的 值 ( 如 , Akaike Information Criterion, AIC; Bayesian Information Criterion, 
BIC)。 信 息 标准 的 具体 计算 公式 分 别 如 下 所 示 : 


AIC = nlog(RSS) + 2df (7) 


BIC = nlog(RSS) + df (8) 
其 中 RSS 指 的 是 残 差 平 方 和 ，4df 则 指 自由 度 。 通 常 我 们 会 选择 产生 局 部 最 小 或 整体 最 小 的 
信息 标准 时 参数 4 的 值 (McNeish, 2015). 


目前 大 多 研究 者 主要 使 用 交叉 验证 方法 来 决定 A 的 数值 (Obuchi & Kabashima, 2016). 


3.2.2 p 值 的 计算 


大 多 变量 选择 的 方法 (如 ， 逐 步 回 归 ) 得 到 的 自由 度 或 标准 误 是 不 正确 的 ， 这 些 方法 在 进 
行 显著 性 检验 时 考察 的 不 是 应 当 作为 整体 存在 的 大 个 预测 变量 ， 而 是 经 过 筛选 后 的 m 个 预 
Mamk, Thompson, 2001)。 例 如 ， 对 于 样本 量 半 为 101, kJ 50 的 一 个 回归 模型 ， 书 检 
验 的 自由 度 ! 应 为 (50,50)， 但 是 如 果 逐 步 回 归 从 50 个 预测 变量 中 选 出 了 五 个 预测 变量 , 五 检 
验 的 自由 度 将 变 为 (5, 95)。 而 据 此 计算 得 到 的 p 值 往往 是 不 可 靠 的 (Lockhart et al., 2014)。 但 
是 目前 还 没有 较 好 的 方法 可 以 在 不 重复 抽样 或 分 割 数 据 集 的 情况 下 处 理 p 值 的 计算 。 

在 Lasso 回归 中 ,对 于 没有 完全 压缩 到 零 的 回归 系数 ， 也 难以 计算 其 标准 误 并 判断 其 显 
HIE. “TUL, Lockhart 等 人 (2014) 提 出 了 在 不 需 重 复 抽样 和 分 割 数据 的 条 件 下 ， 计 算 Lasso 
估计 中 值 的 方法 。 该 方法 与 传统 的 似 然 比 检验 相似 。 在 标准 的 似 然 比 检验 中 ,我 们 需要 计 
算 全 模型 和 限制 模型 (全 模型 中 一 些 自由 估计 的 参数 在 限制 模型 中 被 限制 为 0) 的 偏差 (偏差 =- 
2log( 似 然 值 )， 再 通过 卡 方 检 验 来 比较 壬 套 模型 间 差异 的 显著 性 (限制 模型 做 套 于 全 模型 )， 
进而 进行 模型 选择 。 类 似 地 ，Lockhart 等 人 (2014) 证 明了 结果 变量 (Y) 的 观察 值 和 模型 预测 值 
(XB) 之 间 的 协 方差 也 可 发 挥 类 似 上 述 似 然 比 检验 中 “偏差 ”的 作用 ， 即 在 仅 缺 少 某 一 预测 变 
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量 的 模型 中 ( 即 限制 模型 , 该 预测 变量 的 回归 系数 被 限制 为 0), 加 入 该 预测 变量 后 ( 即 全 模型 ， 
所 有 预测 变量 的 回归 系数 被 自由 估计 )， 计 算 模型 协 方差 的 变化 值 ， 再 进行 显著 性 检验 就 可 
以 实现 变量 选择 。 这 种 方法 在 检验 每 一 个 预测 变量 的 显著 性 时 都 纳入 了 其 余 所 有 预测 变量 的 
影响 , 避免 了 逐步 回归 中 依次 纳入 变量 时 先 纳入 的 变量 对 后 纳入 变量 的 影响 。 也 不 需要 通过 
分 离 数 据 或 重复 抽样 来 进行 推断 性 检验 ， 操 作 相对 简便 。 

为 了 演示 Lasso 回归 的 实现 步 又 和 报告 标准 ， 附 录 部 分 采用 实证 数据 详细 展示 了 Lasso 
回归 在 R 软件 中 的 实现 过 程 。 分 析 采 用 glmnet 软件 包 (Friedman, Hastie, & Tibshirani, 2010) 


进行 参数 A 的 选择 ， 采 用 covTest 软件 包 (Lockhart et al., 2014) 计 算 参 数 估 计 的 p 值 。 


地 


4. ”Lasso 回归 的 应 用 


Lasso 回归 的 优点 主要 体现 在 它 能 够 充当 稳定 的 变量 筛选 器 、 建 立 更 具有 概 化 能 力 和 预 
测 能 力 的 模型 。 在 理论 相对 不 够 完善 的 研究 中 , 研究 者 更 加 需要 采用 这 类 方法 避免 对 当前 样 
本 的 过 度 解释 , 探索 适用 于 总 体 的 规律 。 这 种 从 解释 到 预测 的 转变 有 助 于 提升 这 类 研究 的 理 
论 意 义 和 应 用 价值 。 

Lasso 方法 的 优良 特性 使 得 其 在 教育 学 、 临 床 心 理学 、 发 展 心理 学 等 领域 都 有 着 广阔 的 


由 用 前 景 。 但 心理 学 领域 的 研究 中 ， 只 有 少量 研究 采用 了 Lasso 方法 (如 , Hartmann, Zeeck, & 


Barrett, 2010; Scheidt et al., 2012; Schmid, Taylor, Foldi, Berres, & Monsch, 2013). McNeish(2015) 
也 指出 统计 方法 在 心理 学 中 的 应 用 现状 与 统计 学 研究 进展 之 间 存 在 着 较 大 的 脱节 。 从 统计 学 
究 成 果 到 心理 学 中 的 广泛 应 用 往往 都 需要 较 长 时 间 , 这 导致 应 用 领域 不 能 迅速 地 从 统计 学 
的 最 新 研究 中 获 益 。 基 于 此 ， 下 文 将 列举 Lasso 方法 在 临床 心理 学 和 认 知 神经 科学 领域 的 实 
际 应 用 来 展现 该 方法 的 具体 使 用 与 优势 ， 和 希望 能 够 为 研究 者 们 使 用 Lasso 方法 提供 参考 。 
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4.1 Lasso 在 认 知 神经 科学 中 的 应 用 


在 神经 科学 领域 ，Lasso 已 被 成 功 应 用 在 全 基因 组 关联 研究 (Genome Wide Association 


Study,  GWAS) 或 候选 基因 研究 中 筛选 基因 位 点 (Single Nucleotide Polymorphism, SNPs; Ayers 


& Cordell, 2010; Shi etal., 2011)、 检测 基因 与 基因 之 间 的 交互 作用 (D’Angelo, Rao, & Gu, 2009; 


Li, Das, Fu, Li, R., & Wu, 2011)、 以 及 根据 GWAS 结果 进行 风险 预测 (Kooperberg, LeBlanc, & 
Obenchain, 2010)。 全 基因 组 关联 研究 能 够 发 现 影响 神经 和 精神 疾病 的 风险 基因 ， 在 进行 


GWAS 研究 时 , 往往 会 涉及 大 量 的 基因 位 点 。 此 类 涉及 大 量变 量 的 基因 研究 往往 存在 研究 结 


果 难 以 重复 的 问题 (Kohannim et al., 2012). XAH Lasso 方法 ， 能 够 恰当 减少 SNPs 的 数量 ， 
筛选 出 与 结果 变量 稳定 相关 的 基因 ， 建 立 可 重复 的 模型 。 另 外 ， 传 统 的 GWAS 分 析 将 每 个 
基因 的 作用 看 成 是 独立 的 , 忽略 了 它们 之 间 可 能 存在 连锁 不 平衡 结构 (Linkage Disequilibrium, 
LD), 即 部 分 变异 更 可 能 被 一 起 遗传 。 综 上 , 在 基因 分 析 中 采用 Lasso 方法 的 优势 主要 有 (Cho， 
Kim, Oh, Kim, & Park, 2009; Cho et al., 2010; Lin et al., 2009; Malo, Libiger, & Schork, 2008; Shi 
et al., 2011): (1) 能 够 处 理 基 因 组 的 多 维度 问题 ，(2) 能 够 处 理由 于 LD 引起 的 多 重 共 线性 问 
题 ，(3) 能 够 处 理 多 重 比较 的 问题 

Kohannim 等 人 (2012) 为 了 减少 相关 基因 数量 , 筛选 出 与 大 脑 结构 具有 可 靠 相关 的 基因 ， 
采用 Lasso 回归 来 检测 哪些 基因 能 够 影响 杜 叶 体积 (神经 退行 性 疾病 的 生物 标志 )。 研 究 收集 
了 729 名 老年 被 试 的 全 基因 组 数据 以 及 相关 的 协 变量 数据 ， 结 果 变 量 为 被 试 的 里 叶 体 积 测 
量 。 通过 Lasso 回归 从 备 选 SNPs 中 筛选 出 对 结果 变量 影响 最 有 效 的 一 组 SNPs. 最 终 得 到 了 
22 个 显著 影响 里 叶 体积 的 基因 。 随 后 ， 为 了 检验 基因 结果 的 可 重复 性 ， 他 们 在 另 一 批 独立 
的 健康 青年 群体 身上 针对 相关 性 最 高 的 MACROD2 基因 进行 了 重复 验证 。 在 这 批 独立 的 青 
年 群体 身上 同样 发 现 了 MACROD2 基因 对 于 大 脑 结构 存在 影响 ， 验 证 了 通过 Lasso 回归 分 
析 得 到 的 基因 相关 结果 的 稳健 性 。 
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4.2 Lasso 在 临床 心理 学 中 的 应 用 


由 于 临床 样本 收集 的 困难 以 及 研究 者 们 对 众多 心理 疾病 的 认识 不 够 清晰 , 临床 研究 中 往 
往 会 考虑 较 多 变量 的 影响 ,导致 观测 值 数 量 与 预测 因子 数量 的 比值 较 小 (Demjaha et al., 2017)。 
另外 , 临床 评估 要 求 我 们 建立 能 够 进行 稳定 推 盯 的 模型 。 此 时 如 果 使 用 传统 的 逐步 回归 方法 
来 进行 变量 筛选 ， 容 易 出 现 过 拟 合 问题 。 而 使 用 Lasso 方法 能 够 获得 稳定 的 参数 估计 并 提高 
预测 准确 性 (Harrel 2015)， 更 加 符合 临床 评估 的 要 求 。 
基于 此 ，Demjaha 等 人 (2017) 调 查 影响 首发 性 精神 病 抗 治疗 性 (Treatment Resistance) 的 因 
素 时 ,追踪 了 323 名 患 有 首发 性 精神 病 的 患者 ， 采 用 Lasso 多 元 回归 方法 分 析 耐 药性 与 临床 
学 变量 之 间 的 相关 。Lasso 多 元 回归 分 析 结 果 显示 诊断 为 精神 分 裂 症 、 阴 性 症状 、 首 
次 发 病 年 龄 小 、 较 长 时 间 未 接受 精神 病 治疗 这 几 个 因素 能 显著 预测 被 试 的 精神 病 抗 治 疗 性 。 
另外 ， 在 患 病 早期 识别 患者 是 采取 有 效 临 床 干预 与 治疗 的 先决 条 件 ，Lasso 方法 已 被 成 
功 应 用 于 识别 潜在 的 患者 。Schmid, Taylor, Foldi, Berres 和 Monsch(2013) 对 29 个 后 来 发 展 为 
阿尔 兹 海 默 症 的 患者 以 及 相应 条 件 匹 配 的 29 个 对 照 正 常人 进行 了 为 期 八 年 的 追踪 ， 调 查 了 
被 试 的 客观 行为 测量 以 及 神经 心理 学 的 功能 变化 情况 。 由 于 研究 变量 (k=115) 相 对 于 观测 值 
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(n=29) 来 说 数量 过 大 , 采 


一 般 的 回归 方法 易 导致 严重 的 过 拟 合 问题 。 为 了 获得 更 具有 预测 


能 力 的 模型 , 研究 者 采用 Lasso 回归 来 识别 哪些 变量 能 够 在 早期 区 分 未 来 将 发 展 成 阿尔 北海 


默 症 的 人 群 与 正常 对 照 人 群 。 最 终 从 115 个 预测 变量 中 筛选 出 了 11 个 最 具 预 测 力 的 变量 


能 够 有 效 地 在 早期 区 分 两 类 人 群 。 


5. Lasso 的 扩展 


5.1 Lasso 


的 扩展 形式 


在 Lasso 的 基础 上 ， 研 究 者 根据 回归 分 析 中 自 变 量 的 不 同 特性 ， 采 用 不 同形 式 的 惩罚 
函数 , 建立 和 发 展 出 了 多 种 正则 化 模型 , 例如 松弛 Lasso (Relaxed Lasso; Meinshausen, 2007), 


自 适 应 Lasso (Adaptive Lasso; Zou, 2006) ，Bayesian Lasso(Park & Casella, 2008), Fused Lasso 


(Tibshirani et al., 2005) 和 Group Lasso (Yuan & Lin, 2006) 等 。 下 文 将 介绍 几 种 Lasso 扩展 形 
式 的 原理 和 对 应 的 R 语言 软件 包 。 


5.1.1 松弛 Lasso 


当 观 测 指 标 数 p 远 大 于 观测 样本 量 N 时 ,Lasso 方 法 的 收敛 速度 较 慢 (Fan & Peng, 2004)。 


先 采用 普 


由 于 Lasso 方法 无 法 同时 在 计算 复杂 度 与 收敛 速度 上 达到 令 人 满意 的 折 中 ， 
Meinshausen(2007) 在 Lasso 的 基础 上 提出 了 一 个 两 阶段 分 析 方 法 
Lasso)。 在 松弛 Lasso 的 分 析 中 ， 模 型 选择 和 参数 估计 被 分 割 成 两 个 独立 的 过 程 。 该 方法 首 
通 的 Lasso 回归 筛选 出 合适 的 预测 变量 ， 第 二 步 再 对 筛选 出 的 变量 进行 系数 估计 。 


松弛 Lasso (Relaxed 


此 时 会 通过 调整 参数 @ 改变 惩罚 力度 4z = 中 * 4 1T> 中 > 0, A, 42 分 别 为 第 一 、 二 步 佑 计 


中 采用 的 调整 参数 )， 削 弱 或 消除 惩罚 项 的 作用 来 减 小 变量 的 系数 估计 偏差 。 当 @=1 时 ， 系 
数 估计 值 与 普通 Lasso 方法 得 到 的 估计 值 一 致 ， 当 @=0 时 ， 此 时 系数 估计 值 与 OLS 方法 的 


估计 值 相 


同 。 松 弛 Lasso 在 


2007). # 


顾 计算 复杂 度 的 同时 拥有 比 Lasso 更 快 的 收敛 速度 (Meinshausen,， 


论 和 数值 结果 已 表明 ， 对 于 高 维 数据 ， 松 弛 Lasso 能 够 产生 更 稀 疏 的 模型 以 及 与 


Lasso 相等 或 更 小 的 预测 损失 。 
对 于 松弛 Lasso 的 应 用 ， 已 有 较为 完备 的 软件 包 可 供 使 用 。R 语言 中 的 relaxo 包 
(Meinshausen, 2019) 是 专门 用 于 进行 松弛 Lasso 分 析 的 软件 包 , 仅 需 要 调用 cvrelaxo 或 relaxo 


函数 即 可 非常 便捷 地 获得 松弛 Lasso 的 解 。 本 文 也 采用 实证 数据 进行 了 松弛 Lasso 回归 的 演 


示 〔 第 二 步 中 参数 @ 被 固定 为 0， 即 采用 OLS 回归 法 )， 并 对 比 了 传统 的 OLS 回归 估计 的 


结果 。 发 现 松弛 Lasso 回归 仅 采 用 两 个 预测 变量 就 基本 达到 了 OLS 回归 采用 5 个 变量 所 获 


得 的 预测 能 


5.1.2 Bis Lasso 


Lasso 方法 通过 调整 参数 A 来 控制 回归 系数 的 压缩 程度 (Tibshirani, 1996)。 当 研究 者 通 
过 交叉 验证 方法 选择 并 设 定 4 为 某 个 固定 的 值 时 ，Lasso 方法 会 对 所 有 变量 施加 相同 程度 
的 惩罚 ， 尽 管 这 相 比 于 Ridge 正则 化 方法 已 经 一 定 程度 上 减少 了 对 重要 回归 系数 的 过 度 压 
缩 ， 但 仍然 不 可 避免 地 可 能 会 对 重要 变量 的 系数 进行 压缩 ， 产 生 一 定 的 估计 偏差 Fan & Li, 


2001)。Zou (2006) 通 过 在 惩罚 项 前 增加 自 适 应 权重 对 Lasso 算法 进行 了 改进 ， 提 出 了 自 适 应 


Lasso 方法 (Adaptive Lasso). 在 自 适 应 Lasso 方法 中 , 任 选 一 个 y >0, 则 权重 向 量 a= ， 


此 处 可 以 采用 OLS 方法 得 到 的 系数 估计 值 作为 初始 系数 估计 值 hp， 则 自 适应 Lasso PIE 


罚 项 可 以 表示 为 : 


p 
palasso(p) = > 全 局 | 
J= 


自 适 应 Lasso 中 的 自 适 应 权重 系数 依赖 于 数据 ， 不 同 变量 的 回归 系数 受到 的 惩罚 程度 
不 同 。 对 于 初始 系数 估计 值 较 大 的 变量 ， 其 权重 系数 较 小 ， 从 而 会 受到 更 小 的 惩罚 。 而 初 
始 估计 值 较 小 的 变量 对 应 较 大 的 权重 系数 与 较 大 的 惩罚 。 因 此 ， 采 用 自 适 应 Lasso 进行 变 
量 选 择 能 够 使 得 重要 的 变量 更 易 进入 模型 ， 而 不 重要 的 变量 更 易 被 吻 除 ， 在 更 好 地 实现 变 
量 选择 的 同时 也 能 够 有 效 减 小 系数 估计 的 偏差 。 相 比 于 Lasso 方法 ， 自 适应 Lasso 方法 也 
更 适用 于 观测 指标 数 p 和 样本 量 N 的 比值 非常 大 的 情况 。 目 前 ，R 语言 中 的 glmnet 


(Tibshirani et al, 2019)、msgps(Hirose, 2019) 以 及 parcor (Kraemer & Schaefer, 2019) 等 软件 包 


均 能 进行 自 适 应 Lasso 分 析 。 另 外 ，SAS 软件 中 的 Proc GlmSelect 也 能 实现 自 适应 Lasso 


5.1.3 贝 时 斯 Lasso 


在 频率 学 派 中 ， Lasso 方法 通过 在 似 然 函数 值 增加 惩罚 项 的 方式 来 减少 模型 参数 , 实现 
正则 化 。 而 在 贝 叶 斯 方法 中 ， 如 果 选 择 了 合适 的 先 验 分 布 ， 先 验 分 布 的 对 数 形式 就 会 扮演 惩 
罚 项 的 角色 。 Plu, Tibshirani (1996) 认 为 在 贝 叶 斯 方法 下 如 果 对 参数 0 提供 同样 的 、 相 互 独 


立 的 双 指数 先 验 分 布 <exp( 一 X19;|， 就 可 以 实现 Lasso 正则 化 。 双 指数 先 验 分 布 与 零 均值 正 
2 J 


态 分 布 一 样 具有 单 峰 性 和 对 称 性 , 但 其 峰 度 比 正 态 分 布 更 大 。 其 中 ， 入 值 越 大 ,概率 密度 函 


数 越 集中 在 零 附 近 。 
此 外 , 频率 学 派 中 能 够 实现 Lasso 方法 的 算法 (如 , Efron et al., 2004; Friedman et al., 2010; 
Wu & Lange, 2008) 并 不 能 提供 有 效 的 标准 误 估计 ， 这 对 于 频率 学 领域 中 Lasso 方法 的 应 用 造 


成 了 阻碍 (Kyung, Gill, Ghosh, & Casella, 2010)。 而 贝 叶 斯 Lasso 可 以 通过 Gibbs 采样 法 提供 


有 效 的 标准 误 估 计 (Kyung et al., 2010). Park 和 Casella (2008) 以 及 Hans (2009) 提出 的 贝 叶 
斯 Lasso 回归 模型 也 能 够 在 估计 未 知 系数 的 同时 估计 正则 化 参数 ， 避 免 了 使 用 传统 交叉 验 
证 方法 所 需 的 大 量 计算 负担 , 有 着 非常 广阔 的 应 用 前 景 。 而 应 用 研究 者 也 已 经 可 以 采用 R 语 


言 中 的 blasso 软件 包 (Gramacy, 2019) 非 常 方便 的 进行 贝 叶 斯 Lasso 回归 建 模 。 


5.2 Lasso 的 扩展 应 用 
在 回归 模型 中 ，Lasso 方法 还 可 以 被 用 于 往 选 中 介 变 量 (Serang et al., 2017); 而 在 回归 


模型 之 外 ， 正 则 化 方法 也 逐渐 被 应 用 于 结构 方程 模型 (Structural Equation Modeling) 和 心理 


网 络 模型 (Psychological Network Models; Epskamp, Borsboom, & Fried, 2018) 中 。 


5.2.1 潜 变 量 模 型 


= 潜 变量 模型 主要 被 用 于 分 析 问 卷 测 量 的 数据 ， 它 在 模型 估计 时 考虑 了 测量 误差 的 影 
= 响 。 在 潜 变量 建 模 领域 ， 正 则 化 方法 已 经 引起 了 方法 学 家 的 重视 ， 逐 渐 被 引入 到 结构 方程 
建 模 分 析 中 ， 如 ， 采 用 贝 叶 斯 Ridge 正则 化 或 Lasso 正则 化 方法 解决 传统 的 验证 性 因子 分 


析 限 制 过 于 严格 的 问题 (Muthén & Asparouhov, 2012; Pan, Ip, & Dubé, 2017)， 在 MIMIC 模 


型 (Multiple Indicators and Multiple Causes, MIMIC) 中 利用 正则 化 方法 进行 预测 变量 的 筛选 


(Jacobucci, Brandmaier, & Kievit, in press) 等 。 


目前 最 为 流行 的 潜 变 量 分 析 软 件 Mplus (Muthén, L, K., & Muthén, B, O., 1998-2019) 44 
可 以 采用 Ridge 正则 化 方法 进行 结构 方程 建 模 , 其 应 用 也 十 分 普遍 ( 张 沥 今 ， 陆 嘉 琦 , BEL RR, 
RRS, 2019)。 也 有 专门 的 R 语言 软件 包 “blcfa”(Pan, Zhang & Ip, 2019) 可 以 进行 贝 叶 斯 
Lasso 验证 性 因子 分 析 ， 以 及 “regsem” 软 件 包 (Jacobucci, 2019) 可 以 帮助 研究 者 利用 Ridge 
正则 化 或 Lasso 正则 化 方法 进行 探索 性 因子 分 析 、 建 立 MIMIC 模型 等 ,遗憾 的 是 , 由 于 Lasso 
方法 与 潜 变 量 模型 结合 的 方法 在 近 两 年 才 得 到 发 展 ， 目 前 尚未 得 到 普遍 应 用 。 


ase 


5.2.2 网 络 模型 


心理 网 络 模型 (Psychological Network Models) 采 用 节点 (Nodes) 代 表 可 观测 变量 ， 边 


(Edges) 代 表 可 观测 变量 间 的 联系 , 边 的 权重 代表 变量 间 联 系 的 强度 。 这 种 模型 认为 菜 些 心理 
过 程 、 状 态 (如 ， 认 知 过程 ， 精 神 病理 症状 ) 是 同时 发 生 的， 因此 它 关 注 各 个 可 观测 变量 在 网 
络 中 的 相互 作用 。 心 理 网 络 模型 可 以 帮助 研究 者 深入 了 解 可 观测 变量 间 的 关系 , 是 潜 变 量 模 
型 的 有 力 补 充 。 近 年 来 , 心理 网 络 模型 被 广泛 应 用 于 人 格 心理 学 和 临床 心理 学 等 研究 领域 (如 ， 


Costantini et al., 2019; Richetin, Preti, Costantini, & De Panfilis, 2017). 

由 于 该 模型 考察 的 变量 和 参数 数目 较 多 ,为 了 避免 过 拟 合 问 题 、 降 低 一 类 错误 率 , 研究 
者 在 采用 网 络 分 析 时 通常 都 会 结合 Lasso FIA VET Dw ie. AS Lasso 和 图 
Lasso(Graphical Lasso) 等 方法 都 可 以 帮助 研究 者 获得 稀 琉 的 具有 更 强 概 化 能 力 的 网 络 模型 ， 


如 : Marcus, Preszler 和 Zeigler-Hill(2017) 使 用 自 适 应 Lasso 方法 建立 了 黑暗 人 格 (Dark 


Personality) 网 络 模型 ，Costantini 等 人 (2015a) 基 于 自 适 应 Lasso 网 络 模型 发 展 了 责任 感 变量 


的 内 隐 测 量 工 具 ; Di Pierro, Costantini, Benzi, Madeddu 和 Preti (2018) 则 使 用 图 Lasso 方法 


建立 自 恋 特质 的 精神 病理 学 网 络 模型 。 这 类 网 络 模型 可 以 通过 qgraph (网 络 分 析 软 件 包 ; 


Epskamp, Cramer, Waldorp, Schmittmann, & Borsboom, 2012) 和 glasso 软件 包 (图 Lasso 软件 包 ; 


Friedman, Hastie, & Tibshirani, 2019) 实 现 ; 为 了 方便 应 用 研究 者 使 用 这 类 方法 ，Costantini 等 
人 (2015b, 2019) 详 细 曾 述 了 自 适 应 Lasso 网 络 模型 及 图 Lasso 网 络 分 析 模 型 的 原理 及 其 在 及 
软件 中 的 实现 方法 。 


6.1 应 用 建议 


在 心理 学 研究 中 ， 研 究 者 们 常常 主要 关注 于 对 变量 间 关 系 的 解释 ， 但 是 Yarkoni 和 
Westfall(2017) 指 出 这 种 视角 导致 大 量 的 心理 学 研究 虽然 探究 了 关系 复杂 的 心理 机 制 , 但 是 这 
些 模 型 却 很 难 准确 地 预测 未 来 的 行为 . 随 着 可 重复 性 问题 日 益 受 到 重视 ,如何 利 用 统计 方法 、 
规范 研究 流程 来 提供 可 重复 性 危机 的 解决 方案 也 逐渐 成 为 心理 学 领域 的 热点 问题 (Giordano 
& Waller, 2019; HAIS 等 ，2016; Spellman, 20153)。 过 度 关注 对 当前 数据 集 的 解释 带 来 的 过 
拟 合 现 象 也 是 造成 可 重复 性 危机 的 关键 问题 , 针对 该 问题 , 研究 者 已 经 提出 了 一 系列 应 对 措 
施 。 例如， 根据 检验 力 和 效应 量 在 实验 前 计算 样本 量 ,， 将 p 值 临界 值 修 改 为 0.005 的 同时 提 
高 样本 量 以 降低 二 类 错误 率 (Benjamin etal., 2018)。 但 有 些 研究 (如 ， 临 床 研究 ) 难 以 收集 到 足 
够 的 样本 量 , 且 在 理论 不 够 完善 的 情况 下 变量 数目 较 多 也 是 非常 常见 的 现象 , 而 过 拟 合 问 题 


在 这 种 情况 下 会 更 为 严重 (Babyak, 2004; McNeish, 2015)。 


因此 ， 有 研究 者 指出 新 的 统计 分 析 工 具 ( 如 ， 正 则 化 方法 、 贝 叶 斯 方法 ) 有 望 避免 假设 检 
验 的 局 限 ， 降 低 可 重复 性 危机 ( 胡 传 鹏 等 ，2016; Benjamin et al., 2018)。 也 有 越 来 越 多 的 研 
究 者 指出 机 器 学 习 领 域 的 工具 有 希望 帮助 心理 学 成 为 一 门 更 有 预见 性 的 科学 , 且 从 解释 向 预 
测 的 转变 或 许可 以 帮助 研究 者 更 好 地 理解 行为 及 其 背后 的 机 制 (Rosenberg, Casey, & Holmes, 
2018; Serang et al., 2017). 

以 Lasso 为 代表 的 正则 化 模型 在 机 器 学 习 领 域 发 挥 着 越 来 越 重 要 的 作用 ， 目 前 也 已 经 
广泛 应 用 于 生物 医学 等 领域 ， 在 心理 学 领域 中 正则 化 稀疏 模型 也 可 以 帮助 研究 者 进行 变量 
筛选 ， 解 决 模型 中 的 过 拟 合 问题 ， 控 制 一 类 错误 率 等 COU, ALIS, 刘 泽 宇 ， 罗 雄 麟 ， 
2015; FWA, EM, IAE, 王 彤 , 2017)。 在 小 样本 及 变量 数目 较 多 的 情况 下 ，Lasso 方法 
都 有 着 更 优良 的 表现 ， 也 越 来 越 多 地 被 应 用 于 心理 学 领域 ， 在 临床 心理 学 和 认 知 神经 科学 
之 外 ，Lasso 回归 在 教育 心理 学 、 人 格 心理 学 等 领域 中 也 可 以 发 挥 其 价值 。 因 此 ， 本 文 希 
望 通过 对 Lasso 回归 方法 原理 和 应 用 的 介绍 ， 展 现 正则 化 模型 的 价值 ， 进 而 促进 机 器 学 习 
领域 的 工具 在 心理 学 领域 发 挥 更 大 的 作用 。 同 时 ， 我 们 也 呼吁 应 用 研究 者 在 变量 数目 较 多 
或 样本 量 不 足 的 时 候 采 用 Lasso 方法 进行 建 模 分 析 。 


6.2 Lasso 方法 的 局 限 和 展望 


阻碍 Lasso 回归 应 用 的 主要 问题 是 其 难以 获得 标准 误 估计 值 。 这 一 方面 会 影响 p 值 的 
计算 ， 对 此 Lockhart 等 人 (2014) 提 出 的 方法 及 对 应 的 R 软件 包 可 以 有 效 地 弥补 这 一 问题 ， 
但 我 们 同时 也 希望 研究 者 在 应 用 这 类 机 器 学 习 方 法 时 能 够 跳出 显著 性 检验 思维 ， 更 多 地 关 
PT 注 模型 整体 的 预测 能 力 。 另 一 方面 ， 无 法 获得 标准 误 也 会 影响 效应 量 和 置信 区 间 的 计算 ， 
但 Lasso 方法 的 扩展 形式 贝 叶 斯 Lasso 可 以 有 效 地 进行 标准 误 、 可 信 区 间 (Credible Interval) 


的 估计 ， 弥 补 了 这 一 问题 。 随 着 贝 叶 斯 统计 的 流行 (Van de Schoot et al., 2017)， 这 种 贝 叶 斯 
Lasso 方法 未 来 也 有 望 得 到 更 深入 的 发 展 和 应 用 。 
此 外 ， 主 流 的 许多 统计 软件 都 无 法 实现 Lasso 回归 方法 (如 ，SPSS，Mplus)， 这 极 大 地 
阻碍 了 Lasso 方法 的 应 用 。 在 R 软件 中 能 够 实现 Lasso 方法 的 软件 包 虽 然 多 ， 却 也 各 有 各 
的 局 限 。Rstudio 的 首席 科学 家 、ggplot2 软件 包 的 作者 Hadley Wickham 在 采访 ( 印 怡 轩 ， 
2019) 中 也 提 到 ， 他 在 课 上 会 建议 学 生 尝 试 一 些 更 为 稳健 的 回归 方法 ， 如 Lasso 类 的 统计 方 
法 。 但 他 指出 目前 有 大 概 13 个 关于 Lasso 方法 的 R 包 ， 但 是 每 一 个 都 不 够 完善 ， 如 ， 不 能 
处 理 缺 失 值 、 分 类 变量 等 等 ， 因 此 他 计划 将 整合 这 些 软 件 包 以 制作 一 个 更 高 效 的 分 析 工 
县。 相信 随 着 正则 化 模型 及 其 配套 分 析 工 具 的 成 熟 ， 应 用 研究 者 也 可 以 更 便捷 地 采用 正则 
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化 方法 进行 建 模 分 析 。 

最 后 ，Lasso 方法 在 回归 模型 之 外 的 应 用 才刚 刚 起 步 ， 而 Lasso 方法 的 优良 特性 也 使 得 
其 在 处 理 复杂 模型 (如 ， 潜 交互 模型 、 密 集 追 踪 模 型 等 ) 时 更 具 潜 力 。 和 希望 随 着 Lasso 方法 的 
发 展 ， 方 法 学 家 也 能 够 在 各 个 领域 充分 发 挥 Lasso 方法 的 价值 。 未 来 研究 也 需要 进一步 对 
比 Lasso 方法 与 其 它 正 则 化 方法 并 探索 其 分 别 适 用 的 建 模 场 景 ， 为 应 用 研究 提供 建议 。 
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附录 1: Lasso 回归 实例 演示 


为 了 验证 传统 OLS 估计 法 容易 出 现 过 拟 合 的 问题 ,展示 Lasso 回归 的 步骤 和 报告 标准 ， 


促进 Lasso 回 


= 


附录 2。 


导 的 应 用 ， 本 文 将 采用 实例 演示 详细 展示 Lasso 回归 的 分 析 流 程 ， 并 对 比 传统 
估计 方法 。 同 时 


， 实 例 分 析 还 将 纳入 Relaxed Lasso 方法 。 分 析 采 用 及 软件 ， 有 具体 代码 详 见 


数据 来 源 于 395 名 葡萄 牙 中 学 生 (Cortez & Silva, 2008)， 数 据 中 包含 了 11 个 连续 变量 : 


(1) 年 龄 (age)， 


(2) 家 庭 关系 质量 (famre)，(3) 放学 后 空闲 时 间 (freetime)，(4) 和 朋友 出 去 玩 


的 频率 (gooub, (5) 工作 日 饮酒 频率 (dalc), (6) 周末 饮酒 频率 (walc), (7) 自 评 健康 状况 (health)， 


(8) 缺 课 次 数 (absences)，(9) 学 生 第 一 次 数学 测验 成 绩 (G1)，(10) 中 期 测验 成 绩 (G2) 和 (11) 
期 末 测 验 成 绩 (G3)。 其 中 期 末 测 验 成 绩 为 因 变 量 ,本 研究 将 探究 能 够 有 效 预测 数学 期 末 测 验 
成 绩 的 因素 。 相 关 分 析 结 果 显示 ， 学 生 第 一 次 数学 测验 成 绩 、 中 期 测验 成 绩 与 期 末 测 验 成 绩 
之 间 存 在 较 强 的 正 相关 。 


图 1 变量 间 相 关 图 
红色 系 代 表 负 相关 ， 蓝 色 系 代表 正 相 关 ， 颜 色 越 深 代表 相关 值 越 大 。 


在 Lasso 回归 中 ， 首 先 采 用 10 重 交 叉 验 证 方法 选择 合适 的 惩罚 项 入 。 这 一 方法 可 以 通 


过 R 软件 中 的 glmnet (Friedman, Hastie, & Tibshirani, 2010) 实 现 。 值 得 注意 的 是 ， 为 了 保 


证 每 次 交叉 验 说 


FE 分析 得 到 的 入 结果 一 致 ， 需要 采用 setseed0 函 数 设 定 随 机 数 种 子 ,， 否则 每 次 
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分 析 的 结果 会 存在 微小 差异 。 


结果 显示 最 小 化 均 方 误差 (Mean Square Error, MSE) 的 入 为 0.043， 入 + lse 为 0.776。 图 2 


呈现 了 随 着 log(lambda) 的 增加 MSE 值 的 变化 。 当 入 对 复杂 模型 的 惩罚 力度 增 大 时 ，MSE 


同样 会 增 大 ， 而 惩罚 项 的 增 大 最 终 会 导致 所 有 系数 压缩 到 0， 此 时 MSE 值 最 大 。 


Mean-Squared Error 
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i $$ 
Co 


log(Lambda) 


2 十 重 交 叉 验 证 结果 


注 : 图 中 两 条 竖 线 分 别 代表 最 小 化 MSE 的 入 值 和 入 + 1se 值 


图 3 呈现 了 随 着 log(lambda) 的 增加 ， 标 准 化 回归 系数 被 压缩 的 情况 ， 可 以 看 到 的 是 ， 


随 着 惩罚 力度 的 增 大 ， 标 准 化 系数 最 终 全 部 会 被 压缩 到 0。 而 在 入 值 为 0.776 处 ， 有 两 个 系 
数 不 为 0。 根据 输出 结果 ， 


预测 因素 被 保 外 


HP Ke 


Coefficients 


G1( 学 生 第 一 次 数学 测验 成 绩 ) 和 G2( 学 生 中 期 数学 测验 成 绩 ) 两 个 


Log Lambda 


3 惩罚 项 对 系数 的 压缩 结果 

此 外 , Lasso 回归 中 可 以 通过 covTest 软件 包 (Lockhart et al., 2014) 计 算 参 数 估 计 的 p 值 ， 
进一步 计算 疡 值 发 现 ， 同 样 只 有 Gl 和 G2 变量 通过 了 显著 性 检验 ( 表 1)。 

而 在 OLS 估计 中 ， 共 发 现 了 年 龄 、 家 庭 关 系 质 量 、 缺 课 次 数 ， 第 一 次 测验 成 绩 和 期 中 
成 绩 五 个 变量 可 以 显著 预测 期 末 数 学 成 绩 ( 表 1D)。 但 是 结果 显示 缺 课 次 数 正 向 预测 期 末 数 学 
成 绩 ， 即 学 生 缺 勤 次 数 越 多 ， 期 末 成 绩 越 高 @= 0.042,P= 0.001)， 这 显然 和 常识 相悖 。 而 相 
关 分 析 也 显示 缺 课 次 数 和 期 末 成 绩 间 未 发 现 显著 相关 (” = 0.034, p = 0.497)。 而 OLS 回归 分 
析 得 到 的 显著 结果 可 能 是 由 于 样本 量 和 观察 指标 数 的 比率 较 低 m / p = 3.95)， 模 型 发 生 了 过 
拟 合 现象 , 即 模型 在 最 小 化 结果 变量 的 预测 值 和 观测 值 的 差异 时 , 错误 地 学 习 到 了 不 存在 的 
规律 。 此 外 ， 和 Lasso 回归 相 比 ，OLS 额外 发 现 的 另外 两 个 显著 的 预测 变量 和 期 末 成 绩 的 相 
关 值 较 弱 (图 1)。 其 中 年 龄 和 期 末 数 学 成 绩 显著 负 相 关 (x = -0.162, p= 0.001)， 而 家 许 关 系 质 
量 和 期 末 数 学 成 绩 未 发 现 显著 相关 (xr = 0.051, p = 0.309)。 
进一步 进行 Relaxed Lasso 分 析 ， 即 采用 Lasso 回归 选择 出 的 G1 和 G2 变量 与 期 末 数 学 
成 绩 建立 OLS 回归 模型 。 结 果 发 现 与 传统 的 OLS 估计 相 比 ，Relaxed Lasso 回归 的 R?、 校 
正 后 R? 及 均 方 误差 ) 均 相差 不 大 。 即 Relaxed Lasso 回归 仅 采 用 两 个 预测 变量 就 基本 达到 了 
OLS 回归 采用 5 个 变量 所 获得 的 预测 能 力 。 


表 1 Lasso. OLS, Relaxed Lasso 回归 结果 


系数 估计 值 (y 值 ) 

预测 变量 OLS Lasso Relaxed Lasso 
age -0.206(0.009)** -(0.072) - 
famrel 0.36(0.001)** -(0.699) - 
freetime 0.058(0.57) -(0.913) - 
gout -0.014(0.891) -(0.981) - 
dalc -0.108(0.448) -(0.646) - 
walc 0.17(0.105) -(0.294) - 
health 0.046(0.509) -(0.899) - 
absences 0.042(0.001)** -(0.089) - 

G1 0.164(0.003)** 0.057(0.005)** 0.153(0.007)** 


G2 0.977(<0.001)*** 0.903(<0.001)*** 0.987(<0.001)*** 


R? 0.835 - 0.822 
adjusted R? 0.831 - 0.821 


Mean Square Error 3.446 - 3.723 


JE: *# 代 表 p MF 0.01，*** 代 表 p 小 于 0.001. 


从 上 述 分 析 中 可 以 看 出 , OLS 回归 所 选择 的 预测 变量 可 能 是 不 可 靠 且 见 余 的 ,一 方面 在 
本 研究 中 OLS 回归 所 选择 的 预测 变量 和 因 变 量 间 相关 很 弱 ， ， 增 加 的 三 个 预测 变 
量 并 不 能 很 好 地 提升 对 因 变 量 的 解释 力 ，R? 和 校正 后 R2 的 值 都 和 仅 采 用 两 个 预测 变量 的 回 


归 模 型 相 接 近 。 此 外 ，Relaxed Lasso 方法 也 避免 了 Lasso 方法 在 压缩 不 重要 的 系数 的 同时 对 


非 零 系数 (G1, G2) 的 压缩 。 

值得 注意 的 是 ，Lasso 回归 并 不 总 是 会 获得 更 简洁 的 预测 变量 集 ， 它 的 目的 是 采用 较 
少 的 预测 变量 获得 较 高 的 预测 能 力 。 这 尤其 体现 在 样本 量 较 少时 ，OLS 回归 所 使 用 的 假设 
检验 为 了 控制 一 类 错误 率 ， 通 常会 获得 较 高 的 标准 误 估计 ， 检 验 力 较 低 ， 而 Lasso 回归 在 
此 时 则 更 易于 获得 更 高 的 检验 力 和 预测 能 
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附录 2: Lasso 回归 实例 代码 


student <- read.table("mat 2.txt",sep="\t",header=FALSE) 
IV<- (student [,1:10]) 


IVl=scale (IV, FALSE, FALSE) ## 不 对 自 变 量 进行 标准 化 处 理 


## 十 重 交叉 验证 
install.packages (‘glmnet’ ) 


library (glmnet) 


set.seed(1222) ## 设 定 随 机 数 种 子 ， 保 证 每 次 运行 十 重 交 叉 验 证 的 结果 一 样 


Lambda=cv.glmnet (IV1,student[,11]) 


## lasso 回归 结果 


coef (Lambda, s=Lambda$lambda.1se) 


## 绘图 


plot (Lambda) ## 横 坐 标 为 ampda， 纵 坐标 为 均 方 误差 MSE 


savePlot (filename = "lambda", type ="png", device = dev.cur(), 


restoreConsole = TRUE) 


RegCoef=glmnet (IV1,student[,11],family = "gaussian",alpha = 1) 


plot (RegCoef, xvar="lambda", ylim=c(-1.5,1.5), lwd=1.8 ) 


## 横 坐 标 为 1ambda， 纵 坐标 为 系数 估计 值 


abline (v=log (Lambda$lambda.1se) ) 


abline (v=log (Lambda$lambda.min) ) 


savePlot (filename = "loglambda", type ="png", device = 
dev.cur(), 


restoreConsole = TRUE) 
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## 采用 covTest 包 计算 ff 

library('devtools') 

install_github('cran/covTest') 

## coveTest 软件 包 目 前 无 法 从 CRAN 上 下 载 ， 因 此 采用 devtools 软件 包 从 
github 上 下 载 


library (covTest) 


IV<-student[,1:10] 


df=nrow(IV)-1 


IV2=scale (IV, TRUE, TRUE) /sqrt (df) ## 标准 化 自 变 量 


LarsCoef=lars (IV2,student[,11]) 


covTest (LarsCoef,1V2,student[,11]) ## 计算 p 值 
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Abstract: Psychological researches focus on describing, explaining and predicting behavior, and 
having a good understanding of the association between variables is an essential part of this 
process. Regression analysis, a method to evaluate the relationship between variables, is widely 
used in psychological studies. However, due to its highly focus on the interpretation of sample 
data, the traditional ordinary least squares regression has several drawbacks, such as over-fitting 
problem and limitation on dealing with multicollinearity, which may undermine the 
generalizability of the model. These drawbacks have an inevitable influence on the promotion and 
prediction of the model conclusion. 

With the rapid development of methodology, Least absolute shrinkage and selection operator 
(Lasso) regression has been emerged to better compensate for the limitations of traditional 
methods. By introducing a penalty term in the model and shrinking the regression coefficients to 
zero, Lasso regression can achieve a higher accuracy of model prediction and model 
generalizability with the cost of a certain estimation bias. Besides, Lasso regression can also 
effectively deal with the multicollinearity problem. Therefore, it has been widely used in 
medicine, economics, neuroscience and other fields. 

In psychology, due to the limitations of computer computing power, researchers used to 
mainly rely on hypothesis testing to understand the association among variables to verify theories. 
Now, with the rapid development of machine learning, a shift from focusing on interpretation of 
the regression coefficients to improving the prediction of the model has emerged and become 
more and more important. Therefore, based on fundamental theories and real data analysis, the 
aim of this paper is to introduce the principles, implementation steps and advantages of the Lasso 
regression. With the help of statistic science, it is promising that more and more applied 
researchers will be called upon to focus on the emerging statistical tools to promote the 


development of psychology. 
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